除了透過資料視覺化來探索資料外,敘述性統計(描述性統計)也能幫助我們對於資料有更全面的了解。
敘述性統計為以統計學的角度來描繪資料情況(如:集中趨勢、離散程度、資料出現次數、資料分佈)的方法,在進行資料描述時,務必先確認各個欄位的型態(連續/類別),根據型態不同,所使用的統計量亦有所不同。
數值變數:
統計量 | R | Python(以numpy舉例,縮寫np) |
---|---|---|
最小值 | min(data) | np.min(data) |
最大值 | max(data) | np.max(data) |
全距 | range(data) | np.ptp(data) |
平均數 | mean(data) | np.mean(data) |
中位數 | median(data) | np.median(data) |
第一四分位數 | quantile(data,0.25) | np.percentile(data, 25) |
第三四分位數 | quantile(data,0.75) | np.percentile(data, 75) |
四分位距 | IQR(data) | np.subtract(*np.percentile(data, [75, 25])) |
標準差 | sd(data) | np.std(data) |
變異數 | var(data) | np.var(data) |
包含多個統計量 | summary(data) | data.describe() |
偏態 | skewness() (TSA套件) | stats.skew(data) (scipy.stats套件) |
峰態 | kurtosis() (TSA套件) | stats.kurtosis(data) (scipy.stats套件) |
相關係數 | cor() | np.corrcoef(x,y) |
若要根據組別進行敘述統計,可使用
# R
by(資料, 組別變數, summary)
# Python
df.groupby(組別變數).describe()
# R
table()
xtabs()
prop.table()
margin.table()
ftable()
# Python (Pandas套件,簡稱pd)
pd.pivot_table
pd.crosstab()